其他
机器翻译都 60 年了,谷歌为什么还译不对「卡顿」 (上)
虽然谷歌翻译已经发布这么多年,但它还是时不时会闹出一些笑话。
比如「安卓手机非常卡顿」这句话,在去年会被翻译成「Android phone is very fast」,现在则是「Android phone is very Caton」。此外「我的电脑也很卡」会被翻译成「My computor is also very card」。
但因为有开篇的那些小笑话,让我们想要开始研究机器翻译。本篇文章将对机器翻译这六十多年来的发展进行梳理,包括基于规则的机器翻译(RBMT)、基于实例的机器翻译(EBMT)、统计机器翻译(SMT)、神经机器翻译(NMT)等主流方法,以及 Google、Yandex 等厂商的领先算法进行分析。
进展缓慢的前四十年
机器翻译最开始出现于 1933 年,也就是冷战时期。
基于规则的机器翻译(RBMT)
双语词典(RU -> EN) 每一种语言的一套语言规则(例如以某些后缀为后缀的名词,如-heit,、-keit、 -ung 等),也就是词根词性。
PROMPT 和 Systran 是 RBMT 系统中最著名的例子,即便他们也有一些细微差别和亚种。
机器直接翻译
基于语法结构的机器翻译
中介语的机器翻译
基于实例的机器翻译(EBMT)
下篇预告
统计机器翻译(SMT)主导的 1990s-2000s 机器翻译时代; 神经机器翻译(NMT)在 2015 年终于粉墨登场; Google 与 Yandex 的高级玩法;
机器翻译的发展简史
扫描二维码,加入讨论群
获得更多优质数据集
了解人工智能落地应用
关注顶会&论文
回复「读者」了解详情
更多精彩内容(点击图片阅读)